Q1: Problem Tanımı:

Çalışma ve Sosyal Güvenlik Bakanlığı Asgari Ücret Tespit Komisyonu olarak Türkiye’de şehirlere göre farklı yaşam maliyetlerine rağmen, tüm şehirlerde tek asgari ücret politikası uygulamasını değiştirmeye karar verdik. Tek asgari ücret politikası büyük şehirlerde yaşayan işçiler ile küçük şehirlerde yaşayan işçiler arasında gelir ve gider dengesizliği oluşturuyor.


Q2: Proje Amacı:

Türkiye’de şehirlere göre farklı yaşam maliyetleri olmasına rağmen, tek bir asgari ücret belirlenmesi nedeniyle, büyük şehirlerde yaşayan işçiler, küçük şehirlerde yaşayan işçilere göre daha düşük bir gelire sahip olmaktadır. Bu durum, işçilerin yaşam standardını düşürmekte ve refah düzeyini olumsuz etkilemektedir.

Bu projenin amacı, Türkiye’deki 81 ilin farklı yaşam maliyetlerini dikkate alarak, şehirlere göre asgari ücret belirleme sistemi tasarlamaktır. Bu sistem, şehirlerin yaşam maliyetlerini dikkate alarak, işçilerin adil bir gelir elde etmelerini sağlayacaktır.

Proje kapsamında, aşağıdaki faaliyetler gerçekleştirilecektir:


Q3: Veri Seti Keşifsel Analizi

Veri seti Kaggle web sitesinden indirilmiştir. Veri setini incelediğimizde veri setinin asıl kaynağının Numbeo kuruluşu olduğunu görüyoruz. Numbeo, 2009 yılından günümüze 10 binden fazla şehir için 9 milyondan fazla maliyet verisi toplamış ve hala toplamaya devam eden bir oluşumdur. Asgari ücret belirleme komisyonu bir sonraki senenin asgari ücretini belirleyeceği için veri seti 2023 yılının verilerini içeririyor. Veri setini işlemeden önce şehirlerin yaşam maliyetleri öz görselini inceleyelim:



Veri seti, readr::read_csv() fonksiyonu kullanılarak spec_tbl_df tipinde bir değişkene ithal edilmiştir. Veri setinin istatistikleri aşağıdaki gibidir:


Maliyet parametreleri uzun parametrelere karşılık geldiğinden veri setinde xY formatında tutulmuştur. city ve country sütunları character, diğer sütunlar ise numeric veri tipine sahiptir. Veri seti çok fazla sütun içerse de karmaşıklıktan uzak bir veri setidir. Bu yüzden veri setinde geliştirilmesi gereken yerlere odaklanalım.



  1. Veri setinde farklı ülkelerden 10 binden fazla şehir vardır. İlk yapılması gereken yukarıdaki gibi yalnızca Türkiye’nin şehirlerini barındıran bir veri seti oluşturmaktır. Bunun için veri setini filtreleyeceğiz.

  2. Veri setinde Türkiye ile alakalı toplam 61 satır (kayıt) vardır. Türkiye’de 81 il olduğundan öncelikle buradaki eksiği gidermek için Numbeo sitesinden eksik kalan şehirleri tamamlayacağız.

  3. Veri setini hazırlayan şirket, ana dili İngilizce olan bir ülkede varlığını sürdürdüğünden şehirlerimizin adında bulunan Türkçe karakterler doğru yazılmamıştır. Türkçe karakterler ile şehirlerimizin adını doğru bir şekilde yazacağız.

  4. Şehirleri alfabetik olarak sıralayacağız. Bu sayede veri setini analiz ederken bir şehri daha kolay bulabileceğiz ve aynı zamanda gözümüze daha düzenli gelecektir.

  5. Veri seti asgari ücret tespiti için birçok bilgi içeriyor. Bir şehrin 55 sütunundaki tüm maliyetleri girilmiş ise son satırda bulunan data_quality sütununa 1 değeri girilmiştir. Bir veri bile eksikse 0 değeri girilmiştir. Maliyetlerin girilmediği sütunlara da NaN değeri atanmıştır. Bu verileri yine Numbeo sitesini baz alarak güncelleyeceğiz. Aşağıda veri kalitesi grafiğini görebilirsiniz.




    Yukarıdaki grafiğe bakarak Türkiye’deki şehirlerin maliyet verilerinin yaklaşık 32.79 oranında kaliteli olduğu görülüyor. Fakat bu oran sizi yanılgıya düşürmesin çünkü 67.21 oranında kullanılamaz veri yok. Eğer 55 maliyetten bir tanesi bile eksikse onu kaliteli veri saymadığı için bu oran çıkıyor. Bunu daha iyi analiz edebilmek için Türkiye’deki tüm şehirlerin, tüm maliyet verilerinin dolululuk oranına bakalım:

    Bu durum aslında veri setimizin gayet iyi durumda olduğunu ve çok az veri ithal edeceğimizi gösteriyor.

  6. Veri setinin baz aldığı asıl şehir New York olduğundan maliyet fiyatları Amerikan Doları ($) para birimi ile yazılmış. Biz ise yalnızca Türkiye’deki şehirleri kullanacağımız için 2023 Aralık ayı Amerikan Doları - Türk Lirası paritesini kullanacağız.

  7. Veri setinde bulunan ve insanın refah yaşam standartlarını arttırmayan içki, sigara ve türevleri parametreleri asgari ücret tespit kapsamına almayacağız. Bununla birlikte tenis kortu gibi Türkiye’deki her şehirde olmayan parametleri de çıkaracağız. Dileyen kişiler asgari ücreti hesaplandıktan sonra ev, araba gibi kişiyi mülk sahibi yapabilecek şeyler için vereceğimiz refah payını dilediği gibi kullanabilirler.


Q4: Veri Seti Ön İşlemesi

Bu bölümde, Q3 bölümünde yapılan analizin sonucunda veri setinde düzenlenmesi gereken kısımlar işlenerek veri seti daha kullanılabilir hale getirildi. Q3 bölümünde analiz edilen ve belirlenen parametrelere göre veri setinde aşağıdaki değişikler yapılmıştır:

  1. 10 binden fazla şehir barındıran rawData değişkenine atanmış veri seti yalnızca Türkiye şehirlerini içeren turkeyDatas değişkenine atanarak filtrelenmiştir. Veri setinin yeni satır sayısı 69 olmuştur.

  2. Veri setindeki eksik şehirler Numbeo sitesinden referans alarak eklenmiştir. Hiç verisi bulunmayan şehirlerin asgari ücreti, tüm şehirlerin maliyet ortalamasına göre değerlendirilecektir.

  3. Veri setindeki şehirlerin adları Türkçeleştirilmiştir. Örneğin: Çanakkale, Çorum, İstanbul, İzmir, Şanlıurfa

  4. Şehirler, okunabilirliği arttırmak için alfabetik olarak sıralanmıştır. Örneğin: Adana, Adıyaman, Afyonkarahisar, Aksaray, Amasya

  5. Veri setindeki 186 adet NaN değeri, o sütunun ortalama değeri ile doldurulmuştur. Hiçbir maliyet değeri eksik olmayan satırların veri kalitesi (data_quality) 1 değerine çevrilmiştir.

  6. USD para birimi kullanılarak oluşturulmuş veri setini Aralık 2023’deki USD - TRY paritesi baz alınarak tüm değerler 29.09 ile çarpılmıştır.

  7. Bütün veriler işlendikten sonra kullanılacak sütunlar da filtrelenerek filteredDatas değişkenine atandı. Verinin son hali aşağıdaki gibidir.